Integration von regel- und statistikbasierten Methoden in der maschinellen Übersetzung
نویسنده
چکیده
Warren Weavers Appell an die akademische Welt, zu untersuchen inwieweit es möglich ist, Texte automatisch zu übersetzen, wird gemeinhin als Beginn der Maschinellen Übersetzung verstanden (Weaver (2003); Hutchins (1995)). Seither sind rund 60 Jahre vergangen und das Problem der automatischen Übersetzung von Texten ist keineswegs gelöst, steht aber aktuell im Fokus der computerlinguistischen Forschung wie kaum ein anderes. Zu Beginn der Forschung standen eher Rechnerprobleme im Vordergrund und architektonisch die sogenannte direkte Übersetzungsarchitektur, die schlagwortartig auch als Wort-zu-Wort-Übersetzung gekennzeichnet wird. Danach, in der zweiten Generation der Maschinellen Übersetzung, standen die sogenannten regelbasierten Übersetzungssysteme im Zentrum, deren gemeinsames Grundprinzip, bei aller Vielfalt, die im Lauf der Jahre entstanden ist, gekennzeichnet ist durch die Idee, Sätzen abstrakte strukturelle Analysen zuzuweisen und auf dieser Basis zu übersetzen. (Diese Systeme werden zusammengefasst unter der Bezeichnung RBMT für Rule Based Machine Translation). In der dritten Generation stehen statistische Modelle im Vordergrund (diese sind Instanzen der sog. SMT für Statistics based Machine Translation). Ohne noch eine echte vierte Generation zu begründen, stehen heute Forschungen im Zentrum, die versuchen, möglichst viel Wissen aus Sprachdaten abzuleiten und dabei Methoden verschiedener Übersetzungstraditionen möglichst effizient in sogenannten hybriden Ansätzen zu verbinden. Eines der größten Probleme für die Maschinelle Übersetzung, vermutlich das zentrale Problem überhaupt, war und ist die Mehrdeutigkeit. Diese Eigenschaft erlaubt es den natürlichen Sprachen, mit einer möglichst geringen Anzahl von Zeichen und Zeichenkombinationen eine maximale Ausdruckskraft zu erzielen. Verwirrung wird dabei vermieden, indem Kontextwissen äußerst effizient ausgenutzt wird, um die richtige Bedeutung hervorzuheben und die falschen Interpretationen auszufiltern. Dies aber ist das größte Hindernis für den Erfolg einfacher Übersetzungskonzeptionen. Wegen der Mehrdeutigkeit genügt es nicht, Übersetzungsregeln als isolierte ein-eindeutige Wortbeziehungen anzulegen, sondern sie müssen als kontextsensitive n:m-Beziehungen definiert werden, wobei die qualitativ wirklich gute Übersetzung bedeutet, dass zum Schluss der ganze Text und der Zweck des Texts in den Blick genommen werden muss, um die kontextuellen Einschränkungen vollständig zu erfassen.
منابع مشابه
Anaphernresolution in flach analysierten Texten für Recherche und Übersetzung
Anaphernresolution ist wichtig für Retrieval und Textklassifikation, weil sie erlaubt, bei der Auszählung der Häufigkeit der Benennung eines Objekts, oder eines Objekttyps, eines Begriffs, die Ergebnisse durch die Anzahl der entsprechenden anaphorischen Verwendungen zu korrigieren. Bei der Maschinellen Übersetzung ist in der Regel durch diesen Bezug erst die korrekte Übersetzung von Pronomen mö...
متن کاملMaschinelle Übersetzung für historische Sprachen
Der Workshop ”Maschinelle Übersetzung für historische Sprachen” hat am 13. Mai an der Universidad Politèchnica de Catalunya in Barcelona stattgefunden. Er war als begleitendes Ereignis zur europäischen Konferenz über Maschinelle Übersetzung (EAMT09) organisiert. Der Zusammenhang zwischen den beiden Ereignissen war nicht nur der Begriff ”Maschinelle Übersetzung”, sondern auch die Thematik der Ha...
متن کاملDie Logik des Lebens Zur Schlüsselrolle von KI-Methoden in der Biologie der Zukunft
Wie kaum eine andere Wissenschaft hat die Biologie in den letzten 10 Jahren von Entwicklungen in der Informatik profitiert. Dabei spielen Methoden und Ansätze aus der Künstlichen Intelligenz bereits heute eine Schlüsselrolle bei der Erforschung biologischer Prozesse und bilden ein wichtige Grundlage für die Erhebung und Analyse einer stetig wachsenden Menge von Daten mithilfe effizienter und ma...
متن کاملCAT und MÜ - Getrennte Welten?
Im vorliegenden Artikel werden die Zusammenhänge zwischen computerunterstützter Übersetzung (Computer Assisted Translation, CAT) und maschineller Übersetzung (MÜ) untersucht. Im Mittelpunkt stehen die Systeme zur computergestützten Übersetzung sowie ihre Integrierbarkeit mit maschinellen Übersetzungssystemen. Eingangs werden einige terminologische Unterscheidungen getroffen, um die wichtigsten ...
متن کاملMÜ-Lexikografie
Das Lexikon 1 oder Wörterbuch ist eine zentrale und dynamische Komponente in Systemen zur Maschinellen Übersetzung (MÜ). Es ist in der Regel die einzige Komponente, die den Benutzern solcher Systeme in irgendeiner Form dargestellt wird und in der – mit Einschränkungen – Änderungen vorgenommen werden können. Die Lexikonkomponente stellt somit, neben der Text-Einund Ausgabe, eine Schnittstelle zw...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- JLCL
دوره 24 شماره
صفحات -
تاریخ انتشار 2009